其他
如何在极度不平衡模型中找到欺诈客户
作者:zhaikun 风控建模屌丝一枚,现居于北京
个人微信公众号:Python数据分析与评分卡建模
今天给大家介绍一种基于高斯分布的异常样本检测方法。
数据获取方式:关注Python爱好者社区后回复 检测 即可
28万行,31列。
严重不平衡。
看下分布:
对数转换下:
dataset['Amount'] = np.log(dataset['Amount'] + 1)
dataset['Time'] = np.log(dataset['Time'] + 1)
再次看下分布:
下面数据集切分:
下面计算均值和协方差
然后计算不同阈值下的召回率、命中率和F2
发现F2分数是0.78,已经很高了。要知道我们可没有过采样/欠采样。
下面看下混淆矩阵:
效果很好。
数据获取方式:关注Python爱好者社区后回复 检测 即可
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
小编的Python入门视频课程!!!
崔老师爬虫实战案例免费学习视频。
丘老师数据科学入门指导免费学习视频。
陈老师数据分析报告制作免费学习视频。
玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。
丘老师Python网络爬虫实战免费学习视频。